檔案6：L11301 機器學習基本原理（100題）

1. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

機器學習 (Machine Learning) 最核心的意義是什麼？

A. 全部以 if-else 規則寫死
B. 用大量硬體取代演算法
C. 透過資料和演算法，學習經驗規律並在未見資料上做預測或決策
D. 只是一種行銷名詞，無實際應用

答案：C

解析：機器學習能根據資料學到模型或規則，在未知情境下做預測或分類等任務。

2. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第32頁）

監督式學習可再分為「分類 (Classification)」與哪一種類型？

A. 分群 (Clustering)
B. 降維 (Dimensionality Reduction)
C. 迴歸 (Regression)
D. 獎懲式學習 (Reinforcement)

答案：C

解析：監督式學習分為分類(目標為離散)與迴歸(目標為連續數值)，是最常見的兩大類。

3. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

下列哪個任務最有可能使用「非監督式學習」？

A. 分群客戶群，找出相似行為的客群
B. 預測未來銷量
C. 辨識郵件是否垃圾信
D. 預測股票價格

答案：A

解析：非監督式學習沒有標籤，如分群。其餘皆屬監督式(目標已知)或時間序列預測。

4. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第12頁）

「強化式學習 (Reinforcement Learning)」與監督式學習最大差異是？

A. 強化式學習只用靜態資料
B. 强化式學習透過試誤與即時獎勵或懲罰來學習行為策略
C. 強化式學習與監督式一樣都需要標籤
D. 強化式學習無需任何資料

答案：B

解析：強化式學習在互動環境中累積獎勵，非一次性給出正確標籤。

5. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

機器學習流程的關鍵步驟依序為？

A. 資料蒐集 → 特徵處理 → 建模訓練 → 評估 → 部署
B. 只用現成 API
C. 先部署再資料蒐集
D. 直接修改程式即可

答案：A

解析：典型機器學習流程先有資料，再做清理/特徵，再來建立模型、評估效果，最後部署應用。

6. 出題頻率/重要性：★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第40頁）

當模型在訓練資料表現良好，卻在測試資料表現很差，通常稱為？

A. 過擬合 (Overfitting)
B. 欠擬合 (Underfitting)
C. 偏差過大
D. 權重初始化錯誤

答案：A

解析：過擬合代表模型過度貼合訓練集，無法泛化。

7. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

欠擬合 (Underfitting) 常意味著？

A. 模型太複雜
B. 訓練集誤差極低
C. 模型沒學到充分特徵，訓練與測試效果都不佳
D. 與資料量無關

答案：C

解析：欠擬合是模型表現不佳，可能特徵不足或模型表達能力太弱。

8. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第25頁）

下列何者屬於「決策樹 (Decision Tree)」的優點？

A. 易於理解與解釋，能以樹狀結構視覺化
B. 一定比所有模型都準
C. 無法分類離散值
D. 僅能做影像辨識

答案：A

解析：決策樹的可解釋性高，規則像 if-else，但易過擬合，常搭配集成方法（如隨機森林）。

9. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「隨機森林 (Random Forest)」相較於單一決策樹，有何優勢？

A. 透過多棵樹投票，降低過擬合、提高穩定性與預測準確度
B. 單一樹一定比森林好
C. 無差別
D. 隨機森林只適用迴歸

答案：A

解析：隨機森林在每棵樹訓練使用部分資料與特徵，最終投票或平均，可減少樹的高度過擬合。

10. 出題頻率/重要性：★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

常見的「線性迴歸 (Linear Regression)」假設為何？

A. 輸出必為 0 或 1
B. 目標和特徵呈線性關係，可用 w·x + b 來描述
C. 僅能做分類
D. 不需任何假設

答案：B

解析：線性迴歸基本模型為 y = w₁x₁ + … + w_nx_n + b，假設輸出可視作線性組合。

"

11. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

下列哪個度量較常用來評估迴歸模型的誤差？

A. 均方誤差 (Mean Squared Error, MSE)
B. 準確率 (Accuracy)
C. AUC
D. F1-score

答案：A

解析：MSE、MAE、RMSE 是最常見迴歸模型評估方式，Accuracy、AUC、F1-score 則多用於分類。

12. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第35頁）

為何要分割訓練集與測試集？

A. 只為資料儲存方便
B. 訓練集只給資深工程師
C. 用測試集評估泛化能力，避免模型只記住訓練數據
D. 能增加模型參數

答案：C

解析：測試集是用於最終檢驗模型對新資料的表現，防止過擬合狀態下的假性高分。

13. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

何謂「學習率 (Learning Rate)」在迴歸或神經網路訓練中的角色？

A. 控制每次權重更新的步伐大小，太大易震盪，太小收斂慢
B. 與訓練無關
C. 僅用於強化式學習
D. 一定愈大愈好

答案：A

解析：學習率決定梯度下降一步走多遠，需適度調整才能穩定收斂。

14. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第45頁）

「批量梯度下降 (Batch Gradient Descent)」與「隨機梯度下降 (SGD)」差異？

A. 前者一次用全部訓練資料計算梯度，後者每次用單一或少量樣本
B. SGD只用於測試集
C. 批量梯度下降比較快
D. 兩者無差別

答案：A

解析：批量梯度下降計算更精確但可能較慢，SGD每次更新速度快但帶隨機性。

15. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

下列哪些方法常用來避免模型過度擬合？

A. 不用測試集
B. 正則化 (如 L1、L2)、資料增強 (Data Augmentation)、提前停止 (Early Stopping)
C. 無需預防
D. 分群演算法

答案：B

解析：正則化可壓縮權重避免過大，Data Augmentation 提高資料多樣性，Early Stopping 根據驗證集判斷訓練是否過度。

16. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在資料集中若不同類別分佈嚴重不平衡，預測模型可能？

A. 更容易
B. 不會有任何問題
C. 偏向多數類別，忽略少數類別，需採取平衡策略
D. 與分佈無關

答案：C

解析：嚴重不平衡時，模型可能只猜最多類別；可用 Oversampling/Undersampling/SMOTE 等策略平衡。

17. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第40頁）

何謂「偏差 (Bias)」與「變異 (Variance)」在模型誤差分解中的含意？

A. 偏差指模型簡化所造成的系統性誤差，變異指模型對不同資料的敏感度
B. 兩者皆指硬體問題
C. 僅適用於深度學習
D. 無此概念

答案：A

解析：Bias-Variance Tradeoff 是 ML 核心議題：偏差高 → 容易欠擬合；變異高 → 易過擬合。

18. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第50頁）

為何我們需要「驗證集 (Validation set)」？

A. 與測試集相同用途
B. 用以衡量上線之後的真實效果
C. 用來調參或做 Early Stopping 等決策，避免直接動用測試集
D. 永遠不需要

答案：C

解析：在三階段切分中，Validation 協助調校模型參數，Test 保持獨立最終評估，避免洩露。

19. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「混淆矩陣 (Confusion Matrix)」在分類任務中，能顯示什麼資訊？

A. 僅顯示準確率
B. 真實標籤 vs. 預測標籤的交叉分布，含 TP, FP, TN, FN
C. 無法顯示 FN
D. 僅用於回歸

答案：B

解析：混淆矩陣是分類結果詳細對照表，可看出錯誤類型與準確預測的類別情況。

"

20. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

下列對於「線性迴歸」的描述，何者較為正確？

A. 只能處理二分類
B. 用線性方程來擬合輸入特徵與輸出值的關係
C. 不需要任何資料
D. 完全不適用連續預測

答案：B

解析：線性迴歸適用於輸出為連續變數的場景，假設輸入-輸出呈線性關係。

21. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

在機器學習中，若資料量不夠但特徵維度很多，常有何問題？

A. 模型更容易泛化
B. 維度災難 (Curse of dimensionality)，易導致過擬合或計算複雜度高
C. 測試集可忽略
D. 完全不影響

答案：B

解析：高維度+少資料 → 難以估計參數；也因距離度量在高維下失效，致分類與回歸困難。

22. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第55頁）

PCA(主成分分析)主要用途是？

A. 區分高低類別
B. 預測未來趨勢
C. 將高維度資料投影到較低維度空間，同時保留最大差異資訊
D. 僅用於文字分群

答案：C

解析：PCA是一種降維方法，尋找能最大化資料方差的正交主成分，以壓縮維度。

23. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在監督式學習中，分割資料時常見做法為多少比例？

A. 訓練集 : 測試集 ≈ 8:2 或 7:3 (大約區間)
B. 一律 1:1
C. 只用測試集無需訓練
D. 無需分割

答案：A

解析：常見切分包含 80%/20% 或 70%/30%；依資料量大小與需求可調整。

24. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

常見優化方法「梯度下降 (Gradient Descent)」的核心思路是什麼？

A. 沿著損失函式梯度方向反向移動以尋找最小化誤差的參數
B. 用暴力列舉所有參數組合
C. 依隨機路徑走到高點
D. 不需損失函式

答案：A

解析：梯度下降演算法是最常用的學習方式，透過更新參數以最小化損失。

25. 出題頻率/重要性：★★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

下列哪一種是「深度學習 (Deep Learning)」與傳統機器學習的主要差異？

A. 深度學習通常採用多層神經網路，自動學習特徵，需較大量資料
B. 傳統 ML 需超大量資料
C. 深度學習不需要資料
D. 深度學習只能做表格分析

答案：A

解析：深度學習網路具多層結構，自動抽取高階特徵，表現強大但依賴大量資料與算力。

"

26. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

對於「過擬合」問題，下列哪個敘述正確？

A. 過擬合的模型在所有資料上都表現極佳
B. 過擬合代表模型在訓練集表現很好，測試集卻差
C. 過擬合一定比欠擬合好
D. 與資料量無任何關係

答案：B

解析：過擬合即模型只記住訓練樣本特徵，在新樣本的泛化不佳。

27. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

為何「Learning Rate」不能設得過大？

A. 可能導致訓練時在誤差曲面跳來跳去，無法收斂
B. 可以加快收斂速度
C. 與收斂無關
D. 只是令誤差更低

答案：A

解析：學習率太大會造成更新步伐過大，導致震盪或發散，無法到達最小值。

"

28. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第50頁）

「多元線性迴歸 (Multiple Linear Regression)」相較單一迴歸，多在哪裡？

A. 多輸出目標
B. 輸入特徵維度由1個增加到多個
C. 僅能處理分類
D. 不同演算法

答案：B

解析：多元線性迴歸係指 y = w1*x1 + w2*x2 + ... + b，特徵有多個。

29. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在分類任務中，若非常重視對「少數正類」的召回率 (Recall)，該怎麼做？

A. 降低分類決策閾值，使模型更易判定為正類
B. 提高閾值
C. 不可調整閾值
D. 改成 K-Means

答案：A

解析：召回率要高，就要盡量把真正類都抓出來，可調低閾值，但可能犧牲精確率。

30. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

下列哪一個不是機器學習常見的演算法家族？

A. 形態學演算 (Morphological Operator) 僅在影像二值處理
B. 決策樹與隨機森林
C. 線性迴歸與邏輯迴歸
D. K-Means 與階層式分群

答案：A

解析：形態學演算主要用於影像像素層面的膨脹/侵蝕，不算機器學習常見主流演算法。

31. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「集成學習 (Ensemble)」如 Bagging、Boosting 的核心理念是什麼？

A. 結合多個弱模型，透過投票或加權形成更強模型
B. 使用同一個樹
C. 必須在無標籤情況下
D. 僅限 CNN

答案：A

解析：集成方法如隨機森林(Bagging)或梯度提升(Boosting)常可有效提升預測表現。

32. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第58頁）

Boosting (如 XGBoost、LightGBM) 與 Bagging (如 Random Forest) 的差異在？

A. Bagging各模型獨立同分佈訓練，Boosting則序列式疊加，後續模型重點學前面誤差
B. 二者無任何差異
C. Bagging只能用深度學習
D. Boosting一次性訓練所有模型

答案：A

解析：Bagging是並行訓練後投票；Boosting是序列化，後面針對前面錯誤做加強。

33. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

為何在高維空間下，KNN 分類可能效果較差？

A. KNN一定比SVM好
B. 高維度下距離度量失效，導致最近鄰概念模糊
C. KNN不受維度影響
D. 測試資料無法帶入

答案：B

解析：在高維空間，所有點都「差不多遠」，KNN對距離的依賴嚴重削弱效果。

34. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

機器學習中，為何要做「資料正規化 (Normalization)」或「標準化 (Standardization)」？

A. 讓所有特徵單位一致，避免某些量級過大特徵支配模型
B. 只是讓表格好看
C. 與模型無關
D. 只限於文字分類

答案：A

解析：資料縮放可加速收斂、提高數值穩定，避免大值特徵嚴重影響損失函式。

35. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第63頁）

L1 正則化 (Lasso) 與 L2 正則化 (Ridge) 的主要差異？

A. L1可產生稀疏解(使部分權重=0)，L2則會將權重均勻收斂但不會變成0
B. L1無法稀疏
C. L2必定產生大量權重=0
D. 無差異

答案：A

解析：L1(Lasso)可做特徵選擇；L2(Ridge)則抑制權重過大但不會直接變0。

36. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在邏輯迴歸中，激活函式常用哪種？

A. Relu
B. Tanh
C. Sigmoid 函式 (1 / (1 + e^-z))
D. 無需激活函式

答案：C

解析：邏輯迴歸透過 sigmoid 將線性組合輸出映射到 0~1 的機率空間。

37. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

SVM (支持向量機) 中的「核函式 (Kernel)」作用為何？

A. 在高維或無限維空間中計算樣本相似度，讓SVM可處理非線性分類
B. 儲存模型參數
C. 僅能做線性分隔
D. 調整學習率

答案：A

解析：核函式可在不顯式映射至高維的情況下計算內積，SVM因此可處理非線性分界。

38. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第72頁）

ROC 曲線指的是？

A. 以 TPR(敏感度) 對 FPR(假陽性率) 做圖，閾值不同時所形成的曲線
B. 僅顯示精確度
C. 僅用於回歸
D. 與分類無關

答案：A

解析：ROC(Receiver Operating Characteristic) 曲線反映分類器在各閾值下的真陽性率與假陽性率。

39. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

AUC (Area Under the Curve) 通常指的就是 ROC 曲線下的面積，意義為何？

A. 越接近1表示分類器越好，0.5附近表示接近隨機猜測
B. 越小越好
C. 等於準確率
D. 僅針對迴歸

答案：A

解析：AUC越高，代表對正負類別區分能力越強；0.5表示無區分能力。

40. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

「學習曲線 (Learning Curve)」在模型訓練中可觀察什麼？

A. 不同訓練資料量下，訓練集與驗證集誤差的變化，判斷是否過/欠擬合
B. 用來調整硬體性能
C. 僅用於深度學習
D. 代表特徵工程結果

答案：A

解析：學習曲線可看隨資料量增多時，模型的訓練誤差與驗證誤差如何變化，以判斷是否需更多資料或更複雜模型。

41. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

KNN 分類中的 K 值若過大，可能出現什麼情況？

A. 容易過擬合
B. 過度平滑，導致少數類別被多數類給壓過
C. 不受影響
D. 一定效果最佳

答案：B

解析：K太大會忽略局部區域特性，分類決策受遠方多數樣本干擾。

42. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第68頁）

「早停 (Early Stopping)」的主要目的為何？

A. 避免在訓練集上過度迭代而造成過擬合
B. 增加模型複雜度
C. 只在測試階段停止
D. 與訓練時間無關

答案：A

解析：Early Stopping 會根據驗證集誤差是否上升來提前終止訓練，防止模型繼續記住訓練雜訊。

"

43. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「偏差 (Bias)」過大時，模型較可能是哪種狀況？

A. 欠擬合，無法充分捕捉資料的真實規律
B. 過擬合
C. 訓練與測試表現都極佳
D. 模型參數過多

答案：A

解析：高偏差表示模型過於簡單或錯誤假設，導致欠擬合現象。

44. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

為何選用「F1-score」作為分類指標，而不僅用 Accuracy？

A. Accuracy永遠最高
B. 在類別不平衡時，F1結合Precision與Recall，更能反映模型對正類的有效偵測
C. F1只考慮假陰性
D. 不同指標無差

答案：B

解析：F1 = 2PR/(P+R)，能同時考量精確率與召回率，特別適用不平衡資料。

45. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第72頁）

若在二元分類中，非常重視「不漏抓正類」，應優先提升哪個指標？

A. Precision
B. Recall (召回率)
C. Accuracy
D. Specificity

答案：B

解析：若要確保正類都抓到（不漏報），就是提高召回率=TP/(TP+FN)，盡量降低FN。

46. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

當 Accuracy 很高，但 F1-score 很低，可能表示什麼？

A. 資料可能嚴重類別不平衡，模型只要猜多數類即可獲高Accuracy
B. 模型表現非常好
C. 無法發生
D. 這是深度學習特性

答案：A

解析：不平衡資料下，光看Accuracy易誤導，模型可能無視少數類，導致F1分數低。

47. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

機器學習在實務上常需持續迭代更新模型，原因是？

A. 資料分佈可能隨時間改變 (概念飄移)，需重新學習
B. 一次訓練足矣
C. 模型不需維護
D. 使用者數變多無影響

答案：A

解析：實際環境中資料與行為模式會變化，故需定期重新蒐集與訓練模型。

48. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第80頁）

Gradient Boosting 的原理為何？

A. 逐次擬合前一模型的殘差，疊加弱模型以減少剩餘誤差
B. 單一樹投票
C. 不同步並行
D. 僅限線性方程

答案：A

解析：Boosting將每次學習的誤差當作新標籤，不斷累加調整模型，最終形成強分類器。

49. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在非監督式學習中，若要估計分群數 K，常用哪種方法？

A. 使用預先標籤
B. 透過肘部法 (Elbow method) 或輪廓係數 (Silhouette) 分析
C. 僅隨機指定
D. 使用回歸檢驗

答案：B

解析：Elbow method 觀察 SSE對K的走勢，輪廓係數衡量分群品質等，用以選擇合適K。

50. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第70頁）

綜觀「L11301 機器學習基本原理」，下列哪句最能代表其核心精神？

A. 機器學習只要隨意猜測即可
B. 只需硬體強大就能成功
C. 透過適當資料與演算法，讓系統學到規律並在未知情況下做有效預測或決策
D. 絕對不需評估

答案：C

解析：機器學習本質在於「從資料中學習」並「應用於新情況」，透過演算法與模型評估持續優化。

51. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第85頁）

欲評估模型在不同樣本量下的表現趨勢，我們可使用哪種曲線？

A. Learning Curve (學習曲線)
B. ROC Curve
C. Precision-Recall Curve
D. 混淆矩陣

答案：A

解析：Learning Curve 顯示隨資料量變化時，訓練/驗證誤差的走勢，幫助判斷是否需更多資料。

52. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第52頁）

選用「梯度提升樹 (Gradient Boosted Trees)」模型時，通常可得到什麼好處？

A. 訓練非常快，但準確率偏低
B. 擁有高表現力，能在多種資料下取得不錯預測效果
C. 只能用於小資料集
D. 一定會過擬合

答案：B

解析：像 XGBoost、LightGBM、CatBoost 等屬於梯度提升樹方法，常在各種競賽中表現良好。

53. 出題頻率/重要性：★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

為了加速迴歸或分類模型的收斂，我們常在輸入特徵上做哪件事？

A. 隨意打亂標籤
B. 特徵縮放 (Normalization/Standardization)，使數值尺度更適中
C. 移除所有文字型欄位
D. 合併所有特徵成一欄

答案：B

解析：對特徵做縮放(如 Z-score)能讓梯度計算更穩定，避免尺度差異造成學習困難。

54. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「多項式迴歸 (Polynomial Regression)」如何對非線性關係做擬合？

A. 將輸入 x 擴展為 x, x^2, x^3 等多項式項再做線性擬合
B. 僅能2次方
C. 與線性迴歸相同無差
D. 無法處理非線性

答案：A

解析：多項式迴歸透過手動擴增特徵(多次方)，讓線性模型能擬合非線性關係。

55. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第95頁）

「Early Stopping」在 Boosting 模型中也常被使用，其原因？

A. 只適合深度學習
B. 防止迭代次數過多而致過擬合，且可節省訓練時間
C. 沒有意義
D. 與樹的結構無關

答案：B

解析：像 XGBoost 也可透過 early_stopping_rounds 參數根據驗證集分數停止迭代。

"

56. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在自動化ML流程中，「AutoML」可以做什麼？

A. 自動尋找特徵工程與模型超參數，減少手動調參
B. 取代所有數據蒐集
C. 代替工程師寫程式
D. 僅能處理文字分類

答案：A

解析：AutoML 工具可嘗試多種模型與管線組合，尋找最好表現，減輕人力。

57. 出題頻率/重要性：★★

由大綱出題：Yes（參考：初級大綱.txt - L11301 機器學習基本原理）

「正則化 (Regularization)」的主要目的為？

A. 限制模型權重大小或複雜度，降低過擬合風險
B. 測試集分割
C. 將所有特徵移除
D. 調整批量大小

答案：A

解析：如 L1、L2、Dropout(深度學習)等方法，目的都在減少模型複雜度、增進泛化。

58. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第102頁）

在樹模型中，如何判斷哪個特徵最先分裂比較好？

A. 透過資訊增益 (Information Gain) 或基尼不純度 (Gini Impurity) 來決定
B. 隨機決定
C. 只看特徵名順序
D. 用線性迴歸

答案：A

解析：決策樹常用資訊增益（ID3/C4.5）或基尼指數（CART）選出最能區分資料的特徵。

59. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在 Logistic Regression 中，Loss Function 通常為？

A. MSE
B. Cross-Entropy (或 Log Loss)
C. Hinge Loss
D. 0-1 Loss

答案：B

解析：Logistic Regression 透過對數似然估計，可視為 Cross Entropy 損失形式。

60. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

「Loss Function」在機器學習訓練中扮演什麼角色？

A. 無任何作用
B. 衡量模型預測與真值之差，指引優化演算法更新參數
C. 指定硬體配置
D. 決定資料來源

答案：B

解析：Loss (損失) 用於量化預測的好壞，梯度下降等方法依此指標更新模型參數。

61. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「One-Hot Encoding」主要用於？

A. 數值型特徵縮放
B. 分割訓練集
C. 把類別型變量轉成0/1向量，讓模型能處理
D. 清除所有缺失值

答案：C

解析：One-Hot Encoding 是對分類特徵做離散化編碼，以便於線性或樹模型處理。

62. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第55頁）

當我們對資料做降維 (如 PCA) 時，可能的優勢為？

A. 減少維度以降低過擬合風險與計算成本，且有助可視化
B. 失去全部資訊
C. 讓資料更難處理
D. 與維度無關

答案：A

解析：PCA等方法壓縮維度，去除冗餘特徵，能提取關鍵特徵並減少運算量。

63. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第110頁）

隨機森林有一項「Out-of-Bag (OOB)」的概念，其用途為？

A. 使用未被該樹取樣到的資料測試樹的效能，近似替代測試集
B. 僅表示模型大小
C. 無任何作用
D. 只用於監督式學習

答案：A

解析：每棵樹訓練時是有放回抽樣，故有部分樣本沒被抽中，可用來做該樹的驗證，稱OOB測試。

64. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在SVM的分類決策裡，「支持向量 (Support Vectors)」指的是？

A. 所有樣本
B. 位於邊界附近、對決策超平面起關鍵作用的少數樣本
C. 僅誤分的樣本
D. 與分類無關

答案：B

解析：SVM只需靠部分臨界樣本(支持向量)定義決策邊界，其餘距邊界遠的樣本不影響結果。

65. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

我們通常用「學習率衰減 (Learning Rate Decay)」來做什麼？

A. 訓練初期步伐大，隨著 epoch 增加逐漸縮小步伐，助於穩定收斂
B. 讓步伐越來越大
C. 不影響最終結果
D. 只在測試階段調整

答案：A

解析：初期可快速下降，後期需更小步伐搜尋極小值，防止震盪。

66. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第114頁）

XGBoost 之所以常被用於競賽的原因？

A. 效率佳、可處理缺失值、擁有多項正則化與剪枝策略，往往有高準確度
B. 僅能做圖像分割
C. 無法平行計算
D. 只能小資料集

答案：A

解析：XGBoost 是強化版梯度提升樹，支援並行、正則化、缺失值處理等特性，實務成效顯著。

67. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

機器學習中常用「批次大小 (Batch Size)」為何？

A. 在一次參數更新中用多少筆訓練資料作為樣本
B. 測試資料筆數
C. K-Fold折數
D. 與訓練無關

答案：A

解析：在mini-batch梯度下降中，一次更新會基於該批次資料的平均梯度。

68. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

為何在做 K-Fold Cross Validation 時，某些情況下會用 Stratified K-Fold？

A. 為保證各折中類別分佈與整體相似，避免不平衡被抽偏
B. 讓資料隨機消失
C. 只用於回歸
D. 與類別分佈無關

答案：A

解析：Stratified會分層抽樣，維持類別比例一致，使訓練/驗證集更具代表性。

69. 出題頻率/重要性：★★★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

若模型在訓練集與測試集誤差都很高，表示什麼狀況？

A. 欠擬合 (Underfitting)，模型無法學到足夠規律
B. 過擬合
C. 泛化能力很好
D. 與模型無關

答案：A

解析：同時在訓練/測試都表現差 → 欠擬合 → 模型太簡單或特徵不足。

70. 出題頻率/重要性：★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第65頁）

「資料增強 (Data Augmentation)」在某些情境下如何幫助減少過擬合？

A. 通過翻轉/旋轉/添加雜訊等擴增資料樣本，增加模型對多樣情況的穩健性
B. 刪除所有樣本
C. 只用既有資料不變
D. 產生隨機標籤

答案：A

解析：在影像/文字等場合，資料增強可有效增加樣本多樣性，降低記住訓練集而無法泛化的風險。

71. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

在多分類問題(>2類)，常用的評估方式？

A. Macro/Micro Averaged F1-score、Confusion Matrix等綜合指標
B. 僅Accuracy
C. 只能二元分類指標
D. 直接用MSE

答案：A

解析：多分類中 Accuracy、平均F1等常使用；也可看混淆矩陣觀察各類型誤判情況。

72. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第120頁）

在大型資料集下，為什麼 Mini-Batch Gradient Descent 通常優於全量 Batch Gradient Descent？

A. 可以更快收斂，節省記憶體，也不易陷入局部極小
B. 需要匯入全部資料記憶體
C. Mini-Batch不能做驗證
D. 兩者完全相同

答案：A

解析：Mini-Batch 兼具隨機性與效率，可在不讀取整批資料的情況下更新參數。

73. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

常見應用於「維度極高」資料，但標籤數據極少時，哪種學習能發揮作用？

A. 監督式學習
B. 半監督式學習 (Semi-supervised Learning)
C. 完全無法學
D. 強化學習

答案：B

解析：半監督可用少量標籤+大量無標籤資料，較適合標註成本高但資料豐富情況。

74. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「Zero-shot Learning」在機器學習中是指？

A. 需很多標籤
B. 在未見過該類別的樣本情況下，也能進行推論或分類
C. 僅用於KNN
D. 不存在此概念

答案：B

解析：Zero-shot指事先無該類別樣本，但模型可依先前語意或特徵知識辨識新的類別。

75. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第72頁）

在實務應用中，為何常用集成方法(如RandomForest、XGBoost) 而非單一樹或單一迴歸？

A. 集成方法可結合多模型優勢，通常有更高準確率與穩定度
B. 單一模型準確度總是最佳
C. 集成會增加過擬合
D. 集成僅能做圖像分割

答案：A

解析：多模型投票/加權能降低方差與偏差，往往在Kaggle競賽等實踐中效果出色。

76. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「偏差-變異分解 (Bias-Variance Decomposition)」可解釋誤差由哪些部分構成？

A. 偏差 + 變異 + 不可約誤差 (irreducible error)
B. 訓練集 + 測試集
C. 線性 + 非線性
D. 只分為隨機誤差

答案：A

解析：模型預測誤差可分為: 偏差 (模型簡化誤差) + 變異(對不同訓練集敏感度) + 固有雜訊。

77. 出題頻率/重要性：★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第130頁）

「核 (Kernel) SVM」中，RBF核 (Gaussian Kernel) 的作用為何？

A. 在無限維空間內映射樣本，能處理非線性分割問題
B. 只能做線性
C. 只適合影像辨識
D. 與核函式無關

答案：A

解析：RBF核能將原始空間映射到高維(甚至無限)，在該空間中以超平面做線性分割。

78. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第75頁）

「貝氏分類器 (Naive Bayes)」中，為何稱作"Naive"？

A. 因假設特徵之間條件獨立，相對簡單(naive)但常有效
B. 需複雜條件相依建模
C. 只適合線性問題
D. 不可用於分類

答案：A

解析：Naive Bayes 假設所有特徵在給定類別情況下互相獨立，儘管實際往往違背，但在多場景也能表現不錯。

79. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

對於時間序列資料，機器學習需要注意什麼？

A. 可隨意打亂資料順序
B. 保持時序關係，避免把未來資料洩漏到訓練集
C. 與時序無關
D. 完全用隨機森林即可

答案：B

解析：在時間序列中，後期資料往往代表未來，若混進訓練樣本會導致資料洩露。

80. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

若要將文字敘述轉為特徵向量，常用到哪種方法？

A. 直接丟入線性回歸
B. 羅馬拼音
C. Bag-of-Words、TF-IDF、或Word Embedding等方式
D. XOR編碼

答案：C

解析：文字處理需先轉為可數值化的特徵，如 BOW/TF-IDF/embedding 等表示詞語在向量空間的意義。

81. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第140頁）

「過採樣 (Oversampling)」與「下採樣 (Undersampling)」在何種情況下使用？

A. 類別不平衡時，分別透過增加少數類樣本或減少多數類來平衡
B. 與不平衡無關
C. 只適用回歸
D. 不需任何策略

答案：A

解析：在分類中若正負類極度不平衡，可通過 Oversampling(如 SMOTE)或 Undersampling 調整比例。

82. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

「自動特徵選擇 (Feature Selection)」的目的為？

A. 去除冗餘或無關特徵，降低維度並可能提升模型準確度與效率
B. 額外增加特徵
C. 讓模型變得更複雜
D. 僅改變標籤

答案：A

解析：特徵選擇能減少噪音與維度，還能加快訓練速度並降低過擬合。

83. 出題頻率/重要性：★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第78頁）

「混淆矩陣 (Confusion Matrix)」中，FN (False Negative) 代表？

A. 真實為正類卻被預測為負類
B. 預測為正類但真實為負類
C. 皆為正確預測
D. 預測與真值相同

答案：A

解析：FN=真值Positive，但模型判斷Negative → 屬漏報的情況。

84. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第150頁）

「Learning Rate Scheduler」可在訓練過程中怎麼運作？

A. 動態調整學習率，如Step Decay、Exponential Decay，保證更穩定收斂
B. 僅限制最大epoch
C. 調整驗證集大小
D. 無法自動調整

答案：A

解析：Scheduler能隨epoch增長自動遞減學習率，或在表現未提升時降低學習率等。

"

85. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

「Ensemble Stacking」與 Bagging/Boosting的差異在於？

A. Stacking以多個不同類型模型輸出再做次級學習，Bagging/Boosting主要同類模型投票
B. Stacking只用決策樹
C. 沒有任何差別
D. Bagging一定優於Stacking

答案：A

解析：Stacking有「次級學習器」(meta learner)去整合多種模型預測結果；Bagging/Boosting通常同類弱分類器。

86. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

機器學習中，出現「資料洩漏 (Data Leakage)」時會導致？

A. 評估結果過於樂觀，實際部署效果差
B. 模型更具泛化
C. 大幅縮短訓練時間
D. 沒有影響

答案：A

解析：若測試資料在訓練時被用到，模型評估失去公正性，會高估真實表現。

87. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第160頁）

若想同時考慮特徵交互作用，可用哪種方法？

A. Polynomial Features 產生 x1*x2 交叉項，或使用樹模型自動捕捉交互
B. 只用線性方程
C. 不可考慮交互
D. One-Hot會自動產生交互

答案：A

解析：可以人工創建交叉特徵(如多項式)或透過樹模型分裂路徑，捕捉特徵之間的交互影響。

88. 出題頻率/重要性：★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

初學者常犯錯之一：直接看訓練集 Accuracy 來評價模型。可能問題是？

A. 容易過擬合，訓練集高分不代表測試集或真實場景高分
B. 表示模型完美
C. 測試集一致
D. 無任何問題

答案：A

解析：只看訓練表現會忽視泛化能力，必須檢查測試/驗證集表現才能避免過擬合。

89. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

在影像辨識等領域，通常需要大量標記資料，原因是？

A. 機器學習不用標記
B. 深度模型參數極多，需要龐大數據支撐，否則易過擬合
C. 純文字描述即可
D. 只需 10 筆資料足矣

答案：B

解析：如CNN等深度模型參數量大，需龐大訓練樣本提供足夠學習，否則過擬合。

90. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第170頁）

「特徵重要性 (Feature Importance)」在樹模型中如何估算？

A. 透過節點分裂所帶來的純度提升 (如資訊增益) 做加總
B. 由樹高決定
C. 只由隨機產生
D. 與樹結構無關

答案：A

解析：像Random Forest或XGBoost可根據特徵使不純度或Loss下降量計算重要度。

91. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

當資料中有大量缺失值且分佈不均，常見做法？

A. 先探索缺失原因，再選擇刪除或以統計/模型方式插補
B. 全部補 0
C. 全部丟棄
D. 無需理會

答案：A

解析：缺失值處理視比例、分佈與機制而定，可能用均值、中位數、模型預測等方式合理補齊。

92. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

在模型部署後，為何需要持續監控模型效能？

A. 隨著資料或環境變化，模型可能失效，需要重新訓練或調整
B. 一次訓練可永久使用
C. 使用者無法影響模型
D. 監控無法幫助

答案：A

解析：真實世界資料分佈可能漸變(概念漂移)，需監控並適時更新模型。

93. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第180頁）

「半監督式學習 (Semi-supervised Learning)」在實務應用中常見於哪種情境？

A. 有少量標籤資料+大量無標籤資料，如文本、影像標記成本高
B. 僅用全監督資料
C. 只用深度學習
D. 不適用於實務

答案：A

解析：半監督透過無標籤樣本學得分佈結構，再配合少量標籤資料指示，可顯著提升效果。

94. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

要檢驗模型是否「過度依賴個別特徵」或「穩健」，可嘗試什麼測試？

A. 直接忽略
B. 敏感度分析 / 特徵擾動測試，看準確度下降幅度
C. 只用全部特徵
D. 與模型無關

答案：B

解析：若移除或干擾某特徵導致精度顯著下降，代表該特徵對模型決策影響很大。

95. 出題頻率/重要性：★★

由講義出題：No（外部延伸參考）

「One-vs-Rest (OvR)」策略在多類別分類中是如何運作？

A. 針對每個類別都訓練一個二元分類器，把該類 vs. 其他所有類
B. 一次全部類別同時訓練
C. 僅適用兩類
D. 僅用距離度量

答案：A

解析：多分類可透過OvR(或OvO)拆成多個二分類器，再綜合判斷哪類概率最高。

96. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第80頁）

機器學習中，為何要做「超參數 (Hyperparameters)」調整？

A. 這些參數無法在訓練過程自動學得，需要人工或自動搜尋最佳化
B. 超參數與模型效能無關
C. 僅用默認即可
D. 與正則化相同

答案：A

解析：如學習率、正則強度、樹深、K值等屬超參數，不會自動更新，須網格/隨機/貝氏最佳化等。

97. 出題頻率/重要性：★

由講義出題：No（外部延伸參考）

在回歸問題中，若 outlier(極端值)很多，可能優先考慮哪種誤差度量？

A. MAE (Mean Absolute Error)
B. MSE
C. Huber Loss
D. ACC

答案：A

解析：MAE對outlier較不敏感，MSE則會擴大outlier影響。另Huber也是折衷選項。

98. 出題頻率/重要性：★★

由大綱出題：Yes（初級大綱.txt - L11301 機器學習基本原理）

「資料前處理」對機器學習模型的重要性為何？

A. 直接影響模型能否有效學習，若原始資料有噪音或缺失，需先清理
B. 只需使用所有欄位
C. 不會影響結果
D. 與模型無關

答案：A

解析：資料品質與前處理決定模型上限，垃圾進、垃圾出（GIGO）就是其反面案例。

99. 出題頻率/重要性：★★★

由講義出題：Yes（參考：04_機器學習技術理論與案例_講義.pdf 第190頁）

「偏差校正 (Bias Correction)」在某些模型結果中為何需要？

A. 若資料有系統性偏差，需在結果中進行修正，以貼近真實分布
B. 僅在測試集做對齊
C. 讓預測更偏向多數類
D. 與評估無關

答案：A

解析：如採樣不均或模型系統性誤差，可通過偏差校正(後處理)使分布與真實狀況更一致。

100. 出題頻率/重要性：★★★

由講義出題：Yes（參考：01_AI基礎理論_講義.pdf 第90頁）

綜觀「L11301 機器學習基本原理」後半段要點，下列何者最佳總結？

A. 機器學習不需資料清理，也不用關心泛化
B. 須兼顧演算法特性、超參數調整、正則化與資料品質，並持續監控以達最佳效果
C. 只要深度學習就萬能
D. 評估不重要

答案：B

解析：成功機器學習需多層面配合：特徵、演算法、調參、正則與評估迭代，持續維護才能在實務中表現良好。

檔案6：L11301 機器學習基本原理（100題）

共100題（難度比照初級樣題）

--- 以上為檔案6：L11301 機器學習基本原理 100題 ---